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摘 要 : [目的 /意义 ] 农业 病虫害 科学 数据 集 是 农业 病虫害 监测 预警 的 基础 ， 也 是 发 展 智慧 农业 重要 的 组 成 部 
分 ， 对 农业 病虫害 防治 具有 重要 意义 。 随 着 深度 学 习 技术 在 农业 病虫害 智能 监测 预警 中 应 用 效果 的 凸显 ， 构 建 高 
质量 的 农业 病虫害 数据 集 逐 步 受到 专家 学 者 的 重视 。 为 了 进一步 构建 高 质量 、 分 布 均 衡 的 农业 病虫害 图 像 数据 集 ， 
提高 检测 模型 的 准确 性 和 和 鲁 棒 性 ， 本 文 以 构建 农业 病虫害 图 像 数据 集 面 临 的 挑战 为 切 人 点 ， 对 农业 病虫害 数据 集 
的 构建 进行 了 全 面 综述 。[ 进 展 ] 分 别 从 数据 集 层 次 、 数 据 样本 层次 和 使 用 层次 总 结构 建 农 业 病 虫害 图 像 数据 集 所 
面临 的 类 间 类 内 样本 不 均衡 、 选 择 偏差 、 目 标 多 尺度 、 目 标 密 集 、 数 据 分 布 不 均 、 图 像 质量 参差 不 齐 、 数 据 集 规 
模 不 足以 及 数据 集 可 用 性 等 问题 ， 从 图 像 采集 和 标注 方法 两 个 方面 ,分析 以 上 问题 的 主要 成 因 ， 并 归纳 算法 的 改 
进 策略 和 建议 ,最 后 总 结 了 数据 集 相关 评价 方法 。[ 绪 论 /展望 ] 结合 农业 病虫害 图 像 识 别 实际 需求 ， 对 构建 高 质 
量 农 业 病 虫害 图 像 数 据 集 提 出 了 相关 建议 : (1) 结合 实际 使 用 场景 构建 农业 病虫害 数据 集 。 多 视角 、 多 环境 下 采 
集 图 像 数 据 构建 数据 集 ， 从 算法 提取 特征 的 角度 ， 科 学 、 合 理 划 分 数据 类 别 ， 构 建 样本 数量 分 布 和 特征 分 布 均衡 
的 数据 集 ; (2) 平衡 数据 集 与 算法 间 的 关系 。 研 究 数据 集 特征 与 算法 性 能 之 间 的 关系 ， 需 充分 考虑 数据 集中 的 类 
别 和 分 布 ， 以 及 与 模型 匹配 的 数据 集 规 模 ， 以 提高 算法 准确 性 、 重 棒 性 和 实用 性 。 深 入 研究 农业 病虫害 图 像 数据 
规模 与 模型 性 能 的 关联 关系 、 病 虫害 图 像 数据 标注 方法 、 模 糊 、 密 集 、 遮 挡 等 目标 的 识别 算法 和 高 质量 农业 病 虫 
害 数据 集 评价 指标 ， 进 一 步 提高 农业 病虫害 智能 化 水 平 ; (3) 增强 数据 集 的 使 用 价值 。 构 建 多 模 态 农业 病虫害 数 
据 集 ， 创 新 数据 采集 组 织 形 式 ， 开 发 数据 中 人 台 ， 控 掘 多 模 态 数据 间 的 关联 性 ， 提 高 数据 使 用 便捷 性 ， 为 应 用 落地 、 
业务 创新 提供 高 效 服 务 。 
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1 引 = 3600 多 种 ， 其 中 害虫 2000 余 种 、 病 害 800 余 种 、 杂 
草 680 余 种 、 鼠 害 66 种 "; 截至 2013 年 ， 国 内 已 

农业 病 忠 害 一 直 以 来 是 影响 农作物 产量 与 质量 。 知 取 食 蔬菜 的 害虫 2460 种 外。 利用 测报 手段 对 农 

的 重要 因素 之 一 。 据 《农作物 有 害 生物 名 录 》 记 ”作物 虫害 进行 有 效 监测 可 以 减少 农药 的 使 用 ， 保 陪 
载 ,截至 2014 年 ， 中 国 粮 、 棉 、 麻 、 油 、 糖 、 采 、 ”农作物 的 质量 和 产量 ， 起 到 降 本 增 效 的 作用 。 农 业 
茶 等 发 生 的 有 害 生物 种 类 及 其 检验 出 有 害 生物 种 类 ”病虫害 的 测报 长 期 以 来 主要 是 以 人 工 方式 为 主 进 行 
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现场 识别 与 统计 ， 但 因 基 层 测报 人 员 不 足 、 专 业 
水 平 参差 不 齐 等 因素 ， 导 致 人 工 测 报效 率 低 、 可 靠 
性 较 差 。 近 年 来 ， 随 着 农业 物 联网 技术 和 计算 机 视 
觉 技 术 的 发 展 ， 利 用 信息 化 手段 对 农业 病虫害 进行 
智能 识别 与 精准 防治 成 为 可 能 ， 也 是 智能 农业 在 病 
虫害 精准 识别 应 用 领域 的 必然 发 展 趋势 ， 它 的 应 用 
场景 非常 广 冰 ， 包 括 但 不 限于 农作物 病虫害 识别 、 
农业 病虫害 监测 预警 、 农 作物 目标 检测 、 农 作物 受 
害 程度 评估 、 农 作物 产量 预测 等 “'“， 具 有 节省 时 
间 、 减 少 人 为 主观 性 和 增加 安全 性 等 优点 Us f 
化 技术 需要 具有 多 尺度 信息 且 构 建 科学 的 高 质量 数 
据 集 作 为 支撑 ,合理 科学 地 构建 农业 病虫害 数据 
集 至 关 重 要 ， 它 是 农业 病虫害 智能 识别 的 重要 组 成 
部 分 ， 也 是 病虫害 监测 预警 的 基础 。 

影响 图 像 识 别 效 果 的 因素 之 一 是 数据 集 质 量 。 
通常 在 进行 图 像 识 别 研 究 时 ， 往 往 专 注 于 模型 本 
身 。 事 实 上 ， 随 着 大 数据 时 代 的 到 来 ， 在 图 像 识别 
任务 中 数据 的 作用 越 来 越 明 显 ， 很 多 研究 者 也 意识 
到 了 数据 的 重要 性 ， 开 始 关注 数据 质量 的 高 低 ”， 
2019 年 由 科技 部 认定 的 国家 农业 科学 数据 中 心 为 整 
合 农 业 科 学 数据 资源 、 共 享 农业 数据 资源 发 挥 了 重 
要 作用 。 农 业 病虫害 智能 识别 是 以 病虫害 数据 集 为 
核心 展开 的 ， 许 多 专家 在 农作物 虫害 图 像 数据 集 构 
建 方面 进行 了 研究 。De Cesaro Júnior fll Rieder "^ 
分 析 了 害虫 图 片 中 难以 解决 的 遮挡 问题 ; Li UU 
通过 介绍 害虫 分 类 的 应 用 ， 总 结 了 图 像 采 集 和 预 处 
理 等 方法 ， 并 提出 一 个 农业 害虫 检测 系统 结构 ; DE 
京 京 等 ”介绍 了 农作物 虫害 图 片 中 分 制 和 特征 提 
取 的 方法 ,阐述 了 农作物 病虫害 识别 算法 的 进展 ; 
翟 後 裕 等 ”从 虫害 数据 的 获取 、 数 据 的 处 理 以 及 


数据 的 应 用 三 个 方面 介绍 了 虫害 识别 的 关键 技术 ; 
Hasan 等 指出， 在 虫害 识别 过 程 中 ， 样 本 图 像 具 
有 目标 小 、 目 标 密集 等 特征 ， 这 些 特 征 已 经 成 为 虫 
害 识别 的 主要 问题 之 一 ， 并 针对 性 地 提出 相关 算 
法 。 上 述 文献 均 针 对 虫害 识别 从 数据 集 到 识别 算法 
上 进行 探讨 ， 侧 重 于 识别 算法 的 研究 。 本 文 针对 虫 
害 识别 中 数据 集 的 构建 ， 聚 焦 于 农业 病虫害 识别 方 
法 中 科学 构建 数据 集 的 角度 进行 综述 ; 分析 了 构建 
病虫害 数据 集 的 挑 成 ， 并 从 采集 和 标注 过 程 两 个 方 
面 分 析 问 题 产 生 的 原因 以 及 相关 解决 方法 ; 进一步 
总 结 了 病虫害 数据 集 的 评价 方法 。 


2 农业 病虫害 数据 集 建设 现状 


2.1 常见 农业 病虫害 数据 集 


病虫害 图 像 识 别 技术 是 深度 学 习 中 的 图 像 识别 
算法 在 农业 方面 的 应 用 ,深度 学 习 算法 依赖 于 科学 
合理 的 数据 集 ， 算 法 对 构建 的 数据 集 质量 有 一 定 的 
要 求 “。 一 个 标注 准确 、 规 模 大 小 适当 、 种 类 样 
本 均衡 、 高 相关 性 的 数据 集 对 模型 算法 的 训练 和 测 
试 的 准确 性 ， 以 及 实际 使 用 的 效果 好 坏 能 够 起 到 举 
足 轻 重 的 作用 "”。 农 业 病 虫害 数据 集 主要 来 源 方 
式 有 两 种 : 一 种 是 根据 实际 需求 自己 构建 的 私有 数 
据 集 ， 其 特征 一 般 是 包含 病虫害 种 类 较 少 、 类 间 样 
本 较 多 、 图 像 质量 高 、 标 注 正确 性 较 高 ， 但 是 不 公 
JF; 男 一 种 是 网 络 上 开源 的 公共 数据 集 ， 其 特征 一 
般 包 含 的 病虫害 种 类 较 多 、 类 间 样 本 重复 率 高 、 图 
像 质量 较 低 、 标 注 正 确 性 较 低 ， 但 是 可 以 公开 使 
用 。 表 1 为 一 些 农 业 病 虫害 相关 的 数据 集 。 


表 1 不 同 农业 病虫害 数据 集 对 比 


Table 1 Comparison of different agricultural pest and disease datasets 


序号 数据 集 名 称 


类 别 数量 /个 


描述 来 源 


覆盖 12 种 植物 ,包括 芒果 , 阿 琼 , 雪 桐 , 番 石 榴 , 白 耳 , 贾 蒙 ,麻风 https: //www. kaggle. com/datasets/ 


1 Plant Leaves 22 树 EVE a) AA Tr ERU EDIT te , FE 4503 张 图 像 ，csafrit2/plant-leaves-forimage- 
2278 张 健康 的 叶片 和 2225 张 患 病 的 叶片 classification 
利用 互联 网 图 像 对 健康 和 病害 的 作物 叶片 进行 标注 ,一 共 38 个 

" Plant Village! " 类 别 ,涵盖 了 苹果 EAE EK W EE PEAY 17 https://github. com/spMohanty/ 
种 真菌 疾病 ,4 种 细菌 疾病 .2 种 霉菌 疾病 .2 种 病毒 性 疾病 .1 种 PlantVillage-Dataset 
由 螨 引起 的 疾病 共 54,303 张 健康 和 病害 图 片 


Vol. 5, No. 3 管 博 伦 等 : 农业 病虫害 图 像 数据 集 构 建 关 键 问 题 及 评价 方法 综述 19 
续 表 
序号 数据 集 名 称 类 别 数量 /个 描述 来 源 
主要 在 互联 网 上 搜集 图 片 并 进行 标注 形成 的 数据 集 , 含 有 幼虫 、 
3 IP102081 102 成 虫 等 不 同 的 形态 的 102 个 害虫 类 别 。 共 75,222 张 图 像 ,训练 https: //github.com/xpwu95/IP102 


集 45,095 张 ,验证 集 7508 引 


作者 自行 拍摄 构建 的 患 


长 ,测试 集 22,619 张 
病 水 稻 叶 片 图 像 数 据 集 ,使 用 尼康 


Rice Leaf Disease DSLR-D5600 拍 摄 , 部 分 样本 来 自 网 络 图 像 , 单 张 图 像 像 素 大 小 https://doi.org/10.1016/j. compag. 
Images ^ 为 300X300。 包 含 细菌 性 枯 病 FR TG. Ha BE AG HAE A fI, SE 2020.105527 
5932 张 图 片 ,其 中 测试 集 800 张 ,5132 张 被 增强 用 作 训 练 集 
大 田 作 物 病害 识别 T 以 图 像 数 据 库 的 形式 存储 ,包含 小 麦 ,水 稻 、 玉 米 3 种 大 田 作物 http://www. doi. org/10.11922/sci- 
WEE e na E Um 的 15 种 病害 , 共 17,625 张 样本 encedb.745 
葡萄 病害 识别 图 像 包含 葡萄 白粉 病 .葡萄 花 叶 病毒 病 .葡萄 黑 霉 病 .葡萄 灰 老病 HT http://www. doi. org/10.11922/sci- 
Jae" 萄 省 疡 病 .葡萄 霜 霉 病 和 葡萄 酸 腐 病 7 种 病害 , 共 3622 张 样本 encedb.j00001.00311 
4 AgriPest ™ T 共 49,707 张 图 像样 本 ,大 概 按照 9: 1 的 方式 划分 为 44,716 张 训 https://www. mdpi. com/1424-822 
练 数据 集 和 4991 张 验证 数据 集 , 包 含 4 种 作物 的 14 类 害虫 0/21/5/1601 


包含 斑点 叶 落 病 、 褐 斑 病 、 花 叶 病 、 灰 斑 病 和 锈病 5 种 病害 ,原始 
苹果 叶片 病害 ; 图 片 2029 张 ,其 中 411 张 落叶 病 、435 张 褐 斑 病 、375 张 花 叶 病 、http://www. agridata. cn/data. htm 
数据 集 '3 370 张 灰 斑 病 和 438 张 锈病 。 数 据 增强 后 共 24,348 张 样本 ,图像 1#/paperdetail? id=4363 
像素 大 小 统一 为 5312X512 
Rez AM ZT BE AK BL (Eucalyptus redgum lerp psyllid, Glycaspis brim- — — " 
9 RWE dues 3 blecombei) , CPU Tg IE FEF h (haumastocoris peregrinus) 和 一 种 es 307 LET 
寄生 虫 , 共 748 张 样本 ,图像 像素 为 500X500 e seas 
[ ae 3 : https://onlinelibrary. wiley. /d 
10 — Rustia20217* 4 包含 苍蝇 BT BY IP 4 Rude, Jc 990 dic Rz ur LL Tp 
i/10.1111/jen.12834 
T er 3 包含 24 种 害虫 , 共 25,378 张 样本 。 该 数据 集 包 含 大 尺度 多 目标 https: //doi. org/10.1016/j.compag. 
est24 61 
图 像 .小 尺度 对 象 图 像 .高 相似 度 对 象 图 像 和 密集 分 布 对 象 2020.105585 
B 6 红 柿 害虫 互联 网 中 收集 到 的 8 种 常见 的 害虫 ,原始 图 片 609 张 ,数据 增强 https://data. mendeley. com/datas- 
数据 集 '” 后 共 4263 张 ets/s62zm6djd2/1 
吉 小 实 蝇 等 六 种 常 包含 村 小 实 蝇 、 金 鱼子 `. 梨 小 食心虫 青 叶 蝉 . 星 天 牛 . 柑 村 大 实 . 
d ES 3 PE. p , https://www. agridata. cn/data. ht- 
13 MRE d E C 6 蝎 6 个 种 类 。 原 始 图 像 1613 张 ,具有 显著 性 特征 图 片 799 张 , 增 
12 [28] " ml#/datadetail? id=286640 
据 集 强 后 2412 张 样本 


2.2 部 分 数据 集中 样本 分 布 


由 表 1 可 以 看 到 ， 病 虫害 数据 集 大 多 针对 特定 
的 实际 需求 而 建立 ， 种 类 较 少 、 数 据 量 较 小 的 大 多 
为 秘 有 数据 集 。 农 业 病 虫害 数据 集 不 同 于 常见 的 座 
度 学 习 数据 集 ， 该 数据 集中 的 一 些 样本 对 象 为 生活 
中 不 常见 的 样本 ， 样 本 对 象 往往 较 难 寻 找 和 和 采集 。 
这 些 客观 原因 导致 了 数据 集 类 内 容量 缺乏 、 类 间 缺 
乏 多 样 性 、 类 别 不 均衡 等 问题 较 突出 ， 同 时 病虫害 
图 像 本 映 还 具有 目标 小 、 遮 挡 和 一 张 图 像 中 目标 对 
象 密集 分 布 等 特点 ”。 

对 部 分 开源 的 农业 病 忠 害 图 像 数据 集 的 数据 分 
布 进行 分 析 。 参 考 相关 统计 量 ， 选取 了 母体 标准 
差 、 偏 度 系 数 、 峰 态 系 数 三 个 统计 量 以 及 分 辨 率 和 


标注 信息 进行 样本 分 析 ， 结 果 见 表 2。 标 准 差 可 以 
反应 数据 的 离散 程度 ， 由 于 表 2 中 使 用 了 数据 集中 
的 全 部 数据 ， 所 以 计算 的 是 母体 标准 差 ， 偏 度 系数 
反应 了 数据 的 对 称 性 ， 当 其 大 于 0 时 表明 数据 呈 右 
偏 ， 小 于 0 时 数据 呈 左 偏 ， 等 于 0 时 数据 呈正 态 分 
布 ; 峰 态 系数 反应 了 一 组 数据 峰值 高 低 的 特征 ， 当 
其 等 于 0 时 ， 表 示 数 据 接近 于 正 态 分 布 ， 峰 态 系数 
越 低 表明 数据 分 布 越 平坦 。 根 据 美国 电影 电视 工程 
师 协 会 指定 的 高 等 级 高 清 数字 电视 格式 标准 ， 可 将 图 
像 分 辨 率 指 标 分 为 : 1080P 以 上 的 大 分 辨 率 ，720 一 
1080P 的 中 分 辨 率 ， 以 及 720P 以 下 的 小 分 
Jp O° 

由 表 2 可 以 看 到 ， 在 公开 数据 集中 ， 和 母体 标准 
差 相 对 较 大 ， 尤 其 是 样本 容量 和 类 别 数 较 多 的 数据 
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表 2 部 分 病虫害 公开 数据 集 分 析 结 果 


Table 2 Analysis results of some public datasets of diseases and pests 


序号 数据 集 名 称 类 别 数 ”样本 容量 / 张 ”母体 标准 差 偏 度 系数 峰 态 系数 分辩 率 类 型 ”标注 信息 
1 IP102 102 75,222 966.59 3.73 14.45 小 有 
2 Pest 7 4639 357.04 0.70 -0.89 小 无 
3 Plant Village 38 54,303 1158.27 2.73 5.70 小 无 
4 西红柿 虫害 8 609 32.52 0.05 -0.94 小 无 
5 果园 害虫 6 1568 169.27 -0.02 -1.50 小 无 
6 Rice Leaf Disease Images 4 5932 118.70 -0.72 -1.44 小 无 
7 苹果 叶片 病害 5 24,348 374.38 -0.20 -1.73 小 无 
8 Wheat Leaf Dataset 3 407 51.18 1.71 -1.49 K 无 


集 有 着 更 大 的 母体 标准 差 ， 表 明 该 数据 集 不 同类 别 
间 样 本 容量 离散 程度 较 大 ， 不 同类 别 间 的 样本 数量 
有 较 大 的 差距 ; 由 偏 度 系 数 可 以 看 出 ， 大 多 数据 集 
存在 长 尾 的 现象 ， 类 内 样本 容量 的 均值 在 峰值 的 右 
边 ， 呈 不 对 称 分 布 ; 从 数据 的 峰 态 系数 可 以 看 到 ， 
IP102 和 Plant Village 数 据 集 的 峰值 更 加 集中 ， 个 别 
类 别 中 样本 容量 较 多 ， 其 他 数据 集 的 峰值 呈 平 顶峰 
分 布 较为 分 散 ， 类 间 的 样本 容量 分 布 也 较 平缓 ;图 
像 分 辩 率 也 是 影响 算法 性 能 的 重要 因素 之 一 ， 通 过 
分 析 分 辩 率 可 以 看 到 ， 较 多 的 公开 数据 集中 图像 的 
分 辨 率 相 对 较 低 ， 较 低 的 分 辩 率 会 带 来 较 小 的 模型 
计算 量 (FLOPs) ， 减 轻 计算 负担 ， 但 同时 也 会 降 
低 算 法 精度 ””。 由 这 些 因素 演化 而 来 的 问题 都 会 
对 算法 性 能 产生 影响 ， 因 此 ， 总 结 农业 病虫害 图 像 
数据 集 构 建 过 程 中 的 问题 并 分 析 问 题 产 生 的 原因 将 
有 利于 算法 性 能 的 提升 。 
2.3 构建 农业 病虫害 数据 集 面 临 的 问题 与 

挑战 

在 农业 病虫害 识别 和 监测 预警 技术 的 发 展 过 程 
中 ， 农 业 病虫害 数据 集 起 着 至 关 重 要 的 作用 。 农 业 
病虫害 数据 集 经 历 了 从 单一 病虫害 、 单 一 作物 到 多 


结 为 三 个 层次 : 分 别 是 数据 集 层次 ， 数 据 样 本 层次 
和 使 用 层次 ， 如 图 1 所 示 。 


面临 的 问题 


御用 层 而 :数据 集 规模 
和 分 布 一 烈性 难以 衡量 


] 
Apt 
D Hi Ad y“ 
J 


图 1 农业 病虫害 图 像 数 据 集 构建 面临 的 挑战 


Fig.1 Challenges in constructing agricultural pest and disease 


image datasets 


2.3.1 数据 集 层 面 上 类 别 不 均衡 

数据 集 层次 中 的 类 别 不 均衡 表现 在 三 个 方面 ， 
类 内 差距 、 类 间 差 距 和 数据 集 分 布 一 臻 性。 类 内 差 
距 较 大 ， 指 的 是 属于 同一 类 别 的 图 像 具有 较 大 差距 
的 外 表 特 征 ， 如 图 2 (a) 所 示 ， 同 样 种 类 的 害虫， 
却 有 着 不 一 样 的 外 观 特征 。 类 间 差 距 较 小 ， 指 的 
是 属于 不 同类 别 的 图 像 具 有 较 小 的 外 表 特 征 Al 
图 2 (b) 所 示 ， 不 同 种 类 的 害虫 有 着 相似 的 外 观 。 
因为 部 分 害虫 虽然 外 观 相 似 ， 但 是 其 足 、 雌 雄 外 生 
殖 右 、 卵 和 幼虫 形态 、 化 石 形 态 等 差异 较 大 导致 其 


病虫害 、 多 作物 的 发 展 历程 ， 样 本 数量 也 从 几 百 幅 
图 像 到 上 万 张 图 像 。 然 而 在 病虫害 数据 集 的 构建 过 
程 中 ， 存 在 一 些 问题 导致 该 领域 缺乏 高 质量 的 数据 
集 ， 影 响 了 农业 病虫害 识别 技术 的 发 展 和 应 用 。 根 
据 表 1 和 表 2 中 常见 的 数据 集 以 及 类 间 样 本 分 布 情 
况 ， 农 业 病 虫害 数据 集 构建 所 面临 的 问题 与 挑战 总 


属于 不 同 的 类 别 。 

数据 集 分 布 指 的 是 不 同类 别 内 的 害虫 ， 图 像样 
本 的 数量 以 及 相同 样本 的 信息 量 分 布 一 致 。 类 别 不 
均衡 和 同样 的 样本 数量 下 携带 的 信息 量 不 均衡 都 称 
之 为 不 均衡 数据 集 ”。 图 像 识别 深度 学 习 算 法 需 
要 大 量 的 高 质量 数据 的 支持 ”， 农 业 病虫害 数据 
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(b) 较 小 的 类 间 差 
图 2 不 合理 数据 的 类 间 和 类 内 差距 


- A 


Fig.2 Inter class and intra class differences of 


unreasonable date 


集 受 到 客观 条 件 的 影响 ， 高 质量 的 样本 十 分 缺乏 。 
一 方面 是 受到 自然 环境 的 影响 ， 有 一 些 农业 病虫害 
原始 图 像 数据 的 获取 十 分 困难 ， 另 一 方面 是 对 同 
病虫害 个 体 采 集 的 数据 过 多 ， 导 致 原始 图 像 数据 过 
于 相似 ， 如 图 3 所 示 。 


图 3 整体 相似 的 图 像 


Fig. 3 Overall similar images 


数据 集 应 当 满 足 不 同类 别 内 的 数据 量 分 布 一 
致 ， 较 小 的 类 间 差 距 、 较 大 的 类 内 差距 以 及 不 均衡 
的 数据 集 都 属于 数据 集 层 次 的 问题 ， 会 对 算法 的 训 
练 结果 带 来 一 些 较 为 严重 的 影响 。 

(1) 过 拟 合 。 当 数据 集中 的 样本 图 像 数量 较 小 
时 ,模型 容易 产生 过 拟 合 的 现象 ， 如 果 数 据 集 中 的 
大 多 数 样本 较为 集中 在 某 几 个 类 别 中 时 ， 深 度 的 训 
练 导 致 模型 过 拟 合 ， 模 型 会 出 现在 含有 样本 容量 较 


少 的 类 中 表现 较 差 ， 模 型 的 鲁 棒 性 和 泛 化 能 
较 差 。 

(2) 域 偏 移 。 指 在 大 规模 训练 集 上 训练 的 模型 
在 应 用 于 具有 不 同 统计 量 的 目标 数据 集 时 表现 不 
她 ， 当 源 数据 样本 较 少 时 ， 模 型 往往 会 根据 数 
据 基 类 中 的 大 规模 数据 来 提取 通用 特征 。 当 目标 数 
据 集 中 的 样本 较 少 时 ， 源 数据 集 往往 会 与 目标 数据 
集 存在 较 大 的 差异 ， 两 个 数据 集 之 间 公 共 的 特征 
BED 

(3) 数据 分 布 较 差 。 当 数据 集中 图 像样 本 的 数 
量 偏 少 时 ,会 导致 数据 偏差 和 分 布 偏差 的 问题 。 较 
少 的 训练 样本 在 一 定 程度 上 会 放大 噪声 的 影响 ， 可 
能 会 使 类 内 样本 间 的 距离 偏 大 ， 而 类 间 的 图 像样 本 
距离 偏 小 ， 同 时 较 小 的 样本 数量 使 得 模型 无 法 准 
确 、 完 整 的 表示 样本 数据 的 真实 分 布 ， 目 标 对 象 与 
背景 相互 影响 ， 从 而 降低 模型 的 准确 率 。 为 了 解决 
不 均衡 数据 集 对 模型 性 能 的 影响 ， 有 专家 提出 使 用 
欧 拉 距离 、 交 集 距 离 和 二 次 方 距离 度量 网 像 间 的 颜 
色 特 征 (Hue, Staturation, Value, HSV) 和 纹理 
TRAE (Local Binary Patten, LBP) 直方 图 ， 进 行 相 
似 性 判断 ， 过 滤 掉 相似 度 较 高 的 图 像 US Heg UU 
采用 几何 增强 的 方式 增加 网 像 数 据 的 数量 ， 包 括 翻 
转 、 裁 减 、 缩 放 、 变 形 等 ， 达 到 数据 集 种 类 平衡 。 
Chodey 和 Noorullah Shariff ^" 采用 了 强度 增强 的 方 
X. 包括 指数 变换 、 对 数 变 换 、 线 性 变换 等 方式 扩 
充 数据 。 范 馨 月 等 7 对 长 尾数 据 集 采 用 基于 目标 
尺度 的 方法 进行 数据 增强 ， 增 加 小 样本 的 数量 ， 对 
其 进行 重 采样 。 部 分 学 者 “通过 增加 数据 集中 小 
目标 和 密集 样本 的 数量 和 改进 识别 算法 ,增强 了 提 
取 小 目标 和 密集 样本 特征 的 能 
2.3.2 ”样本 层面 上 样本 特征 提取 困难 

受到 农业 实际 应 用 场景 及 拍摄 者 主观 因素 的 影 
响 ， 采 集 到 的 图 像 中 的 目标 对 象 往往 具有 目标 过 
小 、 目 标 过 大 、 目 标 密 集 、 目 标 间 有 遮挡、 图 像 部 分 
模糊 和 分 辩 率 过 大 或 过 小 等 特点 。 如 图 4 所 示 。 

数据 集中 目标 在 图 像 中 的 尺度 变化 范围 较 大 ， 
给 检测 和 识别 带 来 了 许多 难点 。Li 等 “通过 图 像 
中 的 目标 与 图 像 比 例 来 衡量 图 像 的 复杂 度 ， 认 为 比 
例 越 小 ， 图 像 越 复杂 ， 其 包含 的 本 里 特征 较 少 并 旦 
包含 的 背景 噪声 较 多 ， 容 易 受 到 噪声 的 影响 。 在 模 
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(c) B di s fe E 


or, 
Jj 


(e) 大 目标 图 像 
图 4 在 样本 层次 上 不 同 特征 的 图 像 


Fig. 4 Images with different features at the sample level 


型 的 卷 积 层 提取 特征 信息 时 ， 随 着 层次 的 加 深 ， 会 
导致 特征 信息 的 丢失 “ ， 中 浅 层 神经 网 络 能 够 较 
好 地 提取 到 小 目标 的 特征 ， 而 大 目标 的 特征 需要 深 
层次 的 神经 网 络 模型 进行 提取 。 但 是 大 目标 与 小 目 
标 间 的 差距 过 大 ， 在 神经 网 络 加 深 的 过 程 中 可 能 
致 模型 对 图 像 中 的 小 目标 出 现 漏 检 的 现象 “。 密 
集 和 遮挡 的 目标 对 象 会 导致 特征 提取 不 完整 ， 谈 挡 
较 多 的 目标 也 可 能 出 现 漏 检 的 现象 ， 同 时 被 遮挡 物 
分 割 为 多 段 的 目标 也 难以 判断 是 否 属于 同一 
目标 ”。 

图 像 中 目标 模糊 也 是 影响 图 像 质量 的 主要 因 
素 。 在 拍摄 过 程 中 ， 使 用 微 距 镜头 易 受 到 人 为 或 者 
景深 的 影响 导致 图 像 出 现 部 分 模糊 ， 或 者 全 部 模糊 
的 情况 。 模 糊 的 部 分 可 能 导致 模型 提取 到 目标 的 部 
分 特征 丢失 ， 如 图 4 (b) 所 示 。 不 同 的 光照 和 不 同 


(b) 图 像 部 分 模糊 


(dd) 目 标 间 遮挡 图 像 


明显 ， 有 利于 算法 对 特征 的 提 
取 。 而 弱 光 的 环境 下 ， 图 像 整 
体 偏 瞳 ， 背 部 的 细节 特征 较 难 
分 辨 ,甚至 部 分 区 域 的 颜色 区 
分 度 不 高 ， 影 响 算法 对 特征 的 
提取 。 

在 病虫害 图 像 识 别 任务 
中 ， 病 虫害 的 背景 也 有 一 定 的 
规律 。 在 自然 环境 下 的 病虫害 
ERE RE TELE PEW B5 AMT A 
土地 ， 而 实验 环境 中 拍摄 到 的 
图 像 背 景 往往 过 于 单一 ， 相 对 
于 实验 环境 中 的 背景 目标 ， 大 
田 环境 中 的 图 像 识 别 难度 更 
m, WE SB. ARPA 
景 单一 或 者 目标 尺寸 过 大 可 理 
解 为 图 像 复杂 度 过 低 ，Borji 
等 “中 通过 计算 图 像 的 炉 来 衡 
t — la LER S AERE, ARES 
的 图 像 通常 由 更 多 的 物体 和 更 
BANS A, MEBs, E 


(有 不 同 光照 强度 下 的 目标 图 像 


(b) 大 田 背 景 


(a) 单 一 背景 
图 5 不 同 背景 的 害虫 样本 图 像 
Fig. 5 Pest sample images with different backgrounds 
图 像 的 分 辩 率 对 算法 识别 结果 的 影响 也 不 可 忽 
略 ， 较 高 的 图 像 分 辩 率 虽然 需要 更 多 的 内 存 空间 来 
进行 训练 ， 但 是 其 包含 的 特征 信息 也 更 多 。 而 较 低 
的 图 像 分 辩 率 会 导致 模型 在 下 采样 时 丢失 很 多 特征 


的 图 像 分 辨 率 对 目标 检测 和 识别 也 有 着 较 大 的 影 
响 。 如 图 4 (f) 所 示 ， 左 边 为 强 光 下 的 图 像 ， 右 边 
为 自然 光 较 弱 的 环境 下 拍摄 的 图 像 ， 其 图 像 特 征 有 
着 明显 的 不 同 。 从 图 4 (f) 可 以 看 到 强 光 环境 下 ， 
害虫 的 色彩 饱和 度 增 加 了 ， 背 部 的 细节 轮廓 也 较为 


言 息 ， 影 响 算法 的 准确 率 。 目 前 ， 大 部 分 算法 在 提 
取 特 征 前 会 对 图 像 进 行 resize 处 理 ， 将 图 像 不 同 的 
分 辨 率 缩小 或 者 增 大 到 一 个 固定 的 值 。 在 缩放 操作 
时 可 能 会 导致 目标 出 现 模 糊 的 情况 ， 也 会 影响 算法 
的 识别 结果 。 
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23.3 使 用 层面 上 数据 集 规 模 和 分 布 一 致 性 难以 
衡量 

数据 集 使 用 层面 的 挑战 来 自 于 数据 集 的 规模 、 
可 用 性 、 训 练 样本 和 测试 样本 分 布 一 致 性 等 问题 。 
计算 机 视觉 的 迅猛 发 展 离 不 开 大 规模 标签 数据 的 产 
Æ. Sun O 通过 实验 证 实 , 在 3 亿 张 样本 图 像 的 
情况 下 ， 抑 制 单个 样本 的 噪声 和 扩大 与 数据 集 匹 配 
的 模型 深度 后 ， 随 着 数据 集 规模 的 增 大 ， 视 觉 任务 
模型 的 性 能 也 随 之 得 到 提升 。 计 算 机 视觉 任务 常用 
的 MSCOCO 公 共 数 据 集 具 有 80 个 类 别 ， 分 别 包含 
118,287 个 训练 样本 、5000 个 验证 样本 和 40,670 个 
测试 样本 。 从 表 1 可 以 看 到 与 MSCOCO 数据 集 相 
比 ， 农 业 病 虫害 图 像 数 据 集 规模 还 有 待 进 一 步 扩 
大 。 在 农业 病虫害 识别 检测 任务 中 ， 数 据 集 的 可 用 
性 往往 是 首先 考虑 的 因素 ， 具 体 指 的 是 数据 集 是 否 
方便 地 获取 和 使 用 。 部 分 农业 病虫害 图 像 数据 集 属 
于 私有 数据 集 ， 不 方便 获取 ， 给 相关 检测 识别 任务 
带 来 了 获取 难度 ; 部 分 公开 的 数据 集中 图 像 的 标注 
准确 性 较 差 ， 含 有 噪声 较 多 ， 也 增加 了 相关 检测 识 
别 任务 的 使 用 难度 。 

模型 评估 的 默认 假设 前 提 是 训练 数据 样本 和 测 
试 数据 样本 的 分 布 形式 具有 一 致 性 ， 研 究 者 应 当 重 
视 该 领域 中 的 数据 分 布 一 致 性 问题 ， 但 实际 应 用 中 
却 往往 容易 忽视 。 训 练 数据 和 测试 数据 的 分 布 一 致 
性 是 指 在 度量 方法 下 度量 的 训练 和 测试 数据 分 布 的 
一 致 性 ， 主 要 由 于 选择 偏差 引起 ， 农 业 病 虫害 图 像 
数据 采集 的 难度 导致 了 在 数据 集 的 构建 过 程 中 容易 
在 训练 样本 和 测试 样本 上 出 现 分 布 差异 ， 这 种 差异 
主要 体现 在 选择 偏差 上 。 数 据 偏差 可 能 导致 识 
别 模型 的 泛 化 能 力 下 降 、 模 型 中 的 有 偏 估计 等 ， 因 
此 训练 和 测试 数据 分 布 的 一 致 性 至 关 重 要 。 图 像 中 
的 偏差 问题 很 大 程度 上 已 经 影响 了 图 像 识别 算 法 的 
实际 使 用 效果 ""， 有 专家 认为 数据 集 的 偏差 主要 
来 自 于 原始 图 片 的 采集 与 标注 ， 将 采集 与 标注 分 开 
进行 可 以 避免 设计 上 的 偏差 7. Bylinskii $E ^ pë 
出 要 充分 理解 和 利用 现 有 带 有 偏差 的 数据 集 ， 并 且 
根据 实际 项 目 任务 的 需要 ， 去 处 理 和 构建 基准 数据 
集 。 数 据 集中 图 像样 本 的 选择 偏差 和 复杂 度 是 构建 
数据 集 时 要 考虑 的 两 个 方面 “， 需 要 通过 定量 进 
行 分析 ，Borji 等 5 通过 平均 主 视图 (Average An- 


notation Map，AAM) 的 方法 来 进行 评价 ， 它 将 数 
据 集中 所 有 的 标注 图 用 伪 彩 色 图 进行 表示 ， 颜 色 较 
深 越 靠近 图 像 中 央 的 区 域 表 明 该 图 像 的 选择 偏差 越 
Ko Fans ” 使 用 目标 轮廓 中 心 到 图 像 中 心 的 距离 
归 一 化 (Normalized Object Distance from Image 
Center, NOD) 来 度量 中 心 偏差 .该 归 一 化 距离 等 
于 目标 轮廓 的 中 心 到 图 像 中 心 的 距离 除 以 整 张 图 像 
对 角 线 长 度 的 一 半 ， 距 离 越 小 表明 图 像 选 择 偏差 越 
严重 。 

在 实验 环境 中 采集 到 的 训练 数据 集中 ， 农 业 害 
虫 样本 图 像 目标 显著 性 较 强 、 图 像 背 景 较为 简单 、 
光线 单一 ， 而 实际 测试 使 用 环境 中 的 图 像 却 存在 背 
景 复杂 、 光 线 多 变 等 因素 。 这 些 偏 差 都 会 导致 训练 
和 测试 数据 集 分 布 的 差异 ， 从 而 影响 模型 的 使 用 
性 能 。 


3 数据 采集 环境 与 方法 


构建 农业 病虫害 数据 集 所 面临 的 问题 与 其 特殊 
环境 和 采集 方式 相关 。 下 面 分 别 从 数据 采集 环境 和 
数据 采集 方式 两 个 方面 来 分 析 构 建 数据 集 所 面临 的 
问题 。 在 农业 病虫害 识别 应 用 中 ， 害 虫 图 像 的 采集 
是 十 分 重要 的 环节 之 一 ， 同 时 也 是 非常 耗 时 的 环 
节 。 在 不 同 环境 下 利用 不 同 的 数据 采集 方法 ， 所 构 
建 的 数据 集 也 具有 其 独到 的 特点 。 


3.1 数据 采集 环境 


当前 大 多 数据 集 是 在 相对 理想 环境 的 实验 室 中 
利用 专业 设备 采集 到 的 图 像 数 据 ， 这 种 方式 能 够 快 
速 获 得 想 要 的 特定 样本 图 像 ， 种 类 往往 不 具有 足够 
的 代表 性 ”。 在 实际 农业 生产 中 ,不 同 地 区 、 不 
同 作物 的 病虫害 图 像 数据 采集 是 非常 困难 的 。 第 
一 ， 随 着 农药 的 普及 和 及 时 使 用 ， 大 田 作物 中 的 一 
些 病 虫害 更 难以 进行 全 周期 采集 ， 想 要 采集 到 完整 
的 图 像 数 据 越发 困难 。 第 二 ， 在 自然 环境 中 的 农业 
病虫害 ， 发 生 规律 差异 很 大 ， 时 间 横 路 一 年 四 季 、 
地 理 位 置 遍布 祖国 大 江南 北 ， 甚 至 同 种 病虫害 不 同 
发 展 阶 段 的 形态 也 差异 明显 ， 准 确 地 鉴别 并 对 其 采 
集 也 是 一 项 严峻 的 挑战 ; 第 三 ， 农 业 病虫害 由 于 个 
体 小 、 隐 项 性 强 ， 田 间 实 地 难以 发 现 ， 因 此 发 现 并 
采集 到 清晰 的 图 像样 本 也 是 十 分 困难 的 。 表 3 对 比 
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了 农业 病虫害 图 像 不 同 采集 环境 的 特点 。 
表 3 病虫害 图 像 的 不 同 采集 环境 对 比 
Table 3 Comparison of different collection environments for 


disease and pest images 


环境 特点 


实验 环境 ”周围 环境 可 控 , 病 虫害 种 类 较 少 、 便 于 采集 图 像 


大 田 自然 环境 周围 环境 多 变 \ 病 虫害 受 季节 ` 温 湿度 等 影响 明显 
自然 光源 光线 不 可 控 、 受 位 置 .季节 时间 等 影响 较 大 
人 工 光源 “光线 颜色 和 强 弱 相对 可 控 利于 拍摄 细节 特征 


周围 环境 对 农业 病虫害 图 像 采 集 有 着 较 大 的 影 
响 ， 大 田 自然 环境 中 ， 寄 主 、 季 方 、 温 湿度 、 光 线 
等 环境 因素 的 多 变 导 致 了 农业 病虫害 所 呈现 出 的 性 
状 具 有 和 多样 性 。 图 6 展示 了 部 分 害虫 在 不 同 环境 中 
呈现 的 外 观 多 样 性 。 图 6 (a) 为 大 田 自然 环境 中 同 
一 种 害虫 ， 受 到 寄主 、 温 湿度 、 光 线 角度 等 因素 影 
响 ， 表 现 出 的 背部 不 同 颜色 特征 。 图 6 (b) 为 同一 
种 害虫 在 不 同 光 源 条 件 下 的 外 观 特征 ， 在 自然 环境 
中 光线 较 弱 或 者 受到 谈 挡 时 ， 图 像 整 体 偏 瞳 ， 会 出 
现 目 标的 部 分 特征 消失 现象 ， 在 人 工 补 光 适 当 的 条 
件 下 ， 图 像 中 的 目标 和 背景 表现 出 的 特征 较为 明 
显 ， 当 人 工 补 光 过 度 时 ， 光 线 整体 较 亮 ， 会 出 现 部 
分 背景 的 特征 消失 现象 。 图 6 (c) 展示 的 是 受到 不 
同 季节 、 不 同 寄 主 等 因素 的 影响 ， 同 一 害虫 表现 出 
的 不 同 颜色 对 比 。 通 常 而 言 ， 在 多 样 的 环境 和 不 同 
光线 下 的 复杂 场景 中 采集 到 的 病虫害 图 像 有 利于 丰 
富 数据 集 的 多 样 性 ， 更 有 利于 提高 模型 的 鲁 棒 性 。 


e 


A 


(a) 不 同 光源 角度 下 采集 的 图 像 


(b) 不 同 光源 下 采集 的 图 像 


(c) 不 同 自然 环境 下 采集 的 图 像 
图 6 不 同 环境 下 拍摄 的 害虫 图 像 


Fig. 6 Images of pests taken in different environments 


人 机 搭载 摄像 头 对 健康 和 患 病 的 玉米 数据 图 像 进行 
采集 。 周 瑶 O 在 大 田 环境 安装 害虫 引诱 设备 来 捕 


因此 应 当 根据 实际 任务 需求 ， 灵 活 地 调节 环境 变量 
因素 ， 构 建 数据 集 。 


3.2 数据 采集 方法 及 设备 


目前 越 来 越 多 的 团队 根据 自己 的 需求 ， 使 用 不 
同 的 设备 来 采集 特定 种 类 的 农业 病虫害 数据 。 早 在 
1998 4Æ, Zayas 和 Flinn 有 就 通过 照相 机 等 设备 在 
室内 实验 室 环境 中 搭建 了 图 像 采 集 设 施 ， 利 用 不 同 
角度 的 灯光 照射 ， 解 决 了 拍摄 图 像 中 存在 阴影 的 问 
题 。 韩 瑞 珍 '” 开发 了 一 种 害虫 样本 图 像 采 集 系统 ， 
该 系统 利用 工业 相机 ， 将 害虫 样本 置 于 置物 台 上 ， 
分 别 进行 正视 和 俯视 两 种 角度 的 拍摄 。 刘 媛 姐 '” 
为 了 拍摄 清楚 害虫 的 细节 特征 ， 使 用 了 显微镜 采集 
稻 纵 卷 叶 蜡 、 小 菜 蛾 等 图 像 数 据 。Wu 等 “” 使 用 无 


获 害虫 ， 通 过 在 引诱 设备 对 面 安装 摄像 机 来 采集 害 
HAR. ARE FAR TRA BS 3 E 
AURA KT. PASE SERB, RE a 
撞击 昏迷 ， 在 害虫 以 自由 落体 的 过 程 中 对 其 进行 拍 
摄 。 随 着 手机 摄影 技术 的 发 展 ， 智 能 手机 的 拍照 摄 
像 功 能 也 越 来 越 强 大 ， 使 用 手机 采集 农作物 病虫害 
图 像 数据 更 加 便捷 ，Li 等 ““ 通过 智能 手机 和 索尼 
单反 相机 采集 了 像素 大 小 为 4928X3264 WIIK AE W 
叶 枯 病 图 像 1800 张 、 水 稳 褐 斑 病 图 像 1760 张 ， 以 
及 像素 大 小 为 2392X1944 的 水 稻 干 蜡 虫 症状 图 像 
1760 张 。 

近年 来 ， 许 多 团队 也 开始 尝试 将 病虫害 图 像 数 
据 和 其 周围 环境 数据 进行 融合 ， 如 地 理 信息 、 人 气象 
信息 、 作 物 信 息 等 ' 中， 形成 多 模 态 农业 病虫害 数 
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据 集 ， 用 以 挖掘 更 具有 价值 的 信息 。 史 东 旭 等 “ 
使 用 最 新 的 通信 技术 ， 通 过 无 人 机 搭载 摄像 头 和 传 
感 器 来 采集 图 像 信息 和 周围 环境 信息 ， 利 用 大 数据 
平台 建立 农业 病虫害 发 生 模型 ， 从 周围 环境 信息 来 


分 析 农 业 病虫害 的 发 生 原因 。 为 了 进一步 分 析 不 同 
数据 采集 方式 带 来 的 影响 ， 表 4 整理 了 不 同 设备 采 
集 农业 病虫害 图 像 数据 方式 的 优 缺 点 。 


表 4 图 像 的 不 同 采集 方式 对 比 


Table 4 Comparison of different image acquisition methods 


序号 设备 类 型 优点 缺点 适用 场景 
1 智能 手机 灵活 方便 .简单 易 操 作 图 像 清 晰 度 不 够 宇 肉 .户外 
2 单反 相机 灵活 方便 图像 清晰 .能 凸显 较 多 的 细节 需要 掌握 较 专业 的 拍摄 技术 室内 ,户外 
3 无 人 机 平台 能 更 多 地 拍摄 病虫害 群体 特征 拍摄 不 到 病虫害 个 体 特征 户外 
4 自动 采集 装备 自动 化 操作 ,效率 高 价格 昂贵 一旦 安装 完毕 ,只 能 拍摄 特定 的 种 类 室 肉 ,户外 
5 显微镜 更 多 凸显 图 像 细 节 特 征 携带 不 方便 \ 拍 摄 过 程 较为 麻烦 .拍摄 背景 单一 室内 


目前 ， 农 业 病 虫害 图 像 数 据 采 集 设 备 可 分 为 3 
大 类 : 手持 设备 、 无 人 机 平台 和 国定 采集 装置 。 手 
持 设 备 具 备 方便 灵活 等 优势 ， 将 网 络 设备 、 单 反 相 
机 和 拍摄 杆 等 设备 组 合 到 一 起 能 够 取长补短 ， 拍 摄 
到 更 多 种 类 的 病虫害 图 像 ， 这 类 设备 便于 在 自然 环 
境 复 杂 的 地 方 拍摄 ,但 是 往往 需要 具有 植保 知 
识 的 专业 人 员 去 大 田 环 境 或 者 实验 室 里 找到 病虫害 
的 发 生 位 置 ， 在 拍摄 过 程 中 还 需要 具备 一 定 的 摄影 
知识 ,拍摄 效 率 低 ; 固定 采集 装置 可 安装 在 室外 大 
田 环境 或 者 室内 实验 室 中 ,一旦 固定 装置 建造 好 ， 
往往 只 能 拍摄 回 定 区 域内 的 固定 种 类 的 害虫 图 像 , 


题 ， 显 微 镜 可 以 拍摄 太 寸 更 小 的 目标 ， 受 到 其 视野 
的 限制 ， 照 片 中 的 背景 信息 较为 缺乏 。 一 套 便携 、 
优 价 、 自 动 化 程度 高 、 适 用 场景 广 、 能 够 采集 多 源 
数据 的 农业 信息 化 采集 设备 可 以 帮助 农业 科技 人 员 
提高 数据 采集 效率 ， 应 当 加 强 农 业 设 备 和 农业 信息 
化 的 融合 ， 为 农业 病虫害 识别 提供 强大 的 基础 采集 
设备 ， 为 病虫害 监测 预警 提供 有 力 的 数据 文 撑 。 


4 农业 病虫害 图 像 数据 标注 


除了 图 像 采 集 的 环境 和 方法 ， 图 像 标注 质量 也 
是 影响 数据 集 质量 的 重要 因素 。 图 像 识 别 的 前 提 是 


造价 成 本 比较 昂贵 ， 但 是 固定 装置 可 搭载 高 精度 的 
监测 设备 全 天 候 不 间断 自动 拍摄 ， 并 且 将 获取 到 的 
图 像 数据 及 时 上 传 至 云 平 台 进 行 处 理  ， 拍 摄 效 
率 较 高 ; 无 人 机 平台 可 以 灵活 搭载 各 种 光学 传 感 设 
备 ， 例 如 高 清 摄像 头 、 高 光谱 镜头 和 远 红外 镜头 
等 ”"， 其 更 适用 于 在 大 型 农场 或 者 大 规模 连 片 大 
田 进行 图 像 数据 采集 ， 但 是 其 拍摄 的 细节 特征 不 够 
明显 ， 多 用 来 进行 农业 病害 图 像 采 集 ， 少 有 学 者 用 
它 来 采集 农业 害虫 图 像 。 在 不 同 的 环境 中 ， 灵 活 应 
用 不 同 的 设备 可 以 提高 图 像 采 集 效 率 ， 但 是 不 同 的 
设备 所 采集 到 的 图 像 也 具有 不 同 的 特点 。 

智能 手机 受到 硬件 的 限制 ， 拍 摄 出 的 照片 清晰 
度 往往 不 高 ， 单 反 相机 属于 专业 拍照 设备 ， 微 距 镜 
头 的 使 用 容易 导致 拍摄 出 的 照片 出 现 模糊 或 者 光线 
较 弱 的 现象 ， 大 田 上 自动 采集 设备 需要 事先 设 定好 的 
拍照 程序 ， 在 一 定时 间 内 易 出 现 遮 挡 、 密 集 等 问 


要 通过 训练 数据 来 告诉 计算 机 一 幅 图 像 中 真实 的 样 
本 对 象 ， 青 通过 算法 从 这 些 大 量 的 样本 对 象 中 提取 
出 属于 某 一 种 类 别 的 特征 。 


4.1 图 像 标 注 任务 


数据 标注 的 目的 就 是 要 将 算法 要 识别 的 图 像 提 
前 打上 标签 ,计算 机 在 这 些 打 上 标签 的 目标 对 象 中 
提取 目标 特征 ， 最 终 实 现 计算 机 自动 识别 目标 对 
象 ”"。 数 据 标 注 沿 无 统一 的 定义 ，Zhu 等 ”将 数 
据 标注 定义 为 对 未 处理 的 原始 数据 进行 加 工 处 理 转 
换 为 计算 机 可 以 识别 的 过 程 ， 标 注 对 象 可 以 是 图 
像 、 视 频 、 文 本 、 语 音 等 。 对 于 图 像 类 型 的 数据 ， 
常见 的 标注 格式 主要 有 和 矩形 框 标注 、 多 边 形 框 标 
注 、 措 点 标注 和 分 类 标注 等 ”， 在 农业 病虫害 图 
像 识 别 领 域 中 ， 最 常用 的 标注 格式 是 矩形 框 标注 和 
多 边 形 框 标注 。 和 矩形 框 标注 常用 的 标注 工具 是 La- 
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bellmg， 该 工具 操作 便捷 ， 会 生成 包含 矩形 框 位 置 
言 息 的 XML 格式 文件 ， 用 户 只 需要 拖 动 鼠 标 将 待 
选中 的 目标 用 矩形 框框 出 即 可 ， 如 图 7 (a) 所 示 ， 
这 种 标注 方法 一 般 在 进行 分 类 或 者 检测 识别 时 使 用 


的 较 多 ; 多 边 形 框 标注 常用 的 标注 工具 是 La- 


belMe， 该 工具 可 以 标注 图 像 和 视频 ， 可 以 导出 
VOC 和 COCO 数据 格式 ， 用 户 需 要 将 待 选 目标 的 
轮廓 用 多 边 形 勾勒 出 来 UU. a7 (b) Bros, xx 
种 标注 方法 一 般 在 进行 图 像 语义 分 割 或 者 实例 分 制 
时 使 用 较 多 。 


(a) FENG FRE (b) 多 边 形 标注 


图 7 不 同 目 标 标注 方式 


Fig.7 Different target annotation methods 
4.2 图 像 标注 流程 


农业 病虫害 图 像 的 标注 需要 较 强 的 专业 背景 ， 
目前 大 多 以 人 工 标注 为 主 。 在 标注 过 程 中 可 以 将 标 
注 者 分 为 3 种 不 同 的 角色 ”。 

(D) 标注 员 。 负 责 具体 图 像 的 标注 工作 ， 需 要 
具备 一 定 的 农业 病虫害 相关 背景 知识 ， 大 多 数 团队 
为 了 提高 标注 效率 ， 多 让 具有 农业 背景 的 高 校 学 生 
进行 标注 。 

(2) 审核 员 。 负 责 对 标注 员 已 经 标注 好 的 数据 
进行 审核 和 校 验 ， 对 已 经 标注 好 的 图 像 数据 进行 标 
注 质 量 检验 ， 分 别 判断 其 标注 是 否 完整 、 标 注 对 象 
与 标签 是 否 吻合 ， 对 于 标注 有 误 的 图 像 进行 修改 或 
者 打 回 重 标 ， 审 核 员 需要 具备 较 强 的 农业 病虫害 背 
景 ， 能 够 识别 辨别 各 种 病虫害 图 像 ， 因 此 审核 员 往 
往 是 农业 植保 领域 的 专家 来 担任 。 

(3) 管理 员 。 负 责 对 原始 图 像 以 及 标注 后 的 图 
像 进行 分 类 管理 和 统计 ， 最 终 形 成 可 使 用 的 农业 病 
虫害 图 像 专业 数据 集 。 

不 同 角 色 的 标注 工作 缺 一 不 可 ， 他 们 之 间 的 有 


机 结合 ， 可 以 在 一 定 程 度 上 保证 图 像 标注 质量 。 随 
着 需要 标注 的 数据 不 断 增 加 ， 为 了 提高 标注 效率 ， 
在 人 工 智能 领域 中 ， 大 多 数 的 数据 标注 采用 众 包 方 
式 完 成 ， 流 程 如 图 8 所 示 。 


缺失 值 处 理 


分 配 任务 


数据 标注 


标注 错误 


图 8 农业 害 忠 图 像 数据 标注 流程 


Fig. 8 Annotation process of image data 


图 像 数据 标注 流程 从 数据 采集 开始 ， 采 集 的 方 
式 可 以 为 室内 实验 环境 或 者 室外 自然 环境 ， 采集 的 
工具 有 单反 相机 、 管 能 手机 、 固 定 采集 装置 和 无 人 
机 平台 等 ， 通 过 这 些 设备 采集 到 的 图 像 数据 为 原始 
数据 ， 可 能 存在 缺失 、 噪 声 、 异 常 等 问题 ， 需 要 进 
行 第 二 步 清洗 ”。 清 洗 后 的 数据 将 交 给 数据 管理 
员 ， 由 管理 员 对 这 些 原始 数据 进行 统计 分 类 和 任务 
分 配 ， 将 待 标注 的 数据 按照 一 定 规则 进行 切片 分 发 
给 不 同 的 标注 者 单独 标注 。 当 数据 按照 标准 规范 被 
标注 好 后 ， 再 对 这 些 数据 按照 规则 进行 合并 处 理 ， 
分 发 给 审核 员 进 行 审核 ,负责 将 符合 满足 标注 质量 
的 图 像 数据 转发 给 数据 管理 员 ， 由 数据 管理 员 对 这 
些 图 像 数据 进行 归纳 统计 ， 形 成 可 直接 使 用 的 数 
据 集 。 

图 像 的 鉴别 和 标注 会 影响 模型 的 准确 性 ， 鉴 别 
错误 的 图 像 会 被 打上 错误 的 标签 ， 在 训练 后 也 会 得 
到 错误 的 结果 ， 降 低 算 法 的 准确 性 。 同 样 ， 不 准确 
标注 的 图 像 也 会 使 算法 降低 准确 性 。 在 标注 过 程 中 
经 常会 出 现 一 些 难以 标注 的 目标 ， 如 图 9 所 示 ， 这 
类 图 像 经 常 存在 于 自然 界 中 。 对 这 些 图 像 的 标注 比 
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较 困 难 ， 标 注 不 当 会 引入 较 多 噪声 ， 会 对 模型 识别 
结果 产生 较 大 影响 。 


(a) € Ë 
图 9 难以 标注 的 复杂 图 像样 例 


Fig. 9 Complex images that are difficult to annotate 


(b) i 3 


5 数据 集 质量 评价 方法 


目前 对 于 高 质量 的 农业 病虫害 数据 集 评价 指标 
尚 无 统一 的 定义 ， 但 是 可 以 肯定 的 是 ， 构 建 高 质量 
的 数据 集 对 于 模型 的 性 能 发 挥 着 重要 的 作用 。 针 对 
构建 农业 病虫害 图 像 数据 集 面临 的 一 些 问题 和 挑 
成 ， 本 文 从 数据 分 布 一 致 性 、 数 据 集 规 模 和 数据 标 
注 质量 三 个 方面 总 结 了 现 有 的 相关 评价 方法 。 
5.1 数据 分 布 一 致 性 评价 

判断 训练 数据 集 和 测试 数据 分 布 是 否 一 致 的 度 
量 方法 常 分 为 度量 函数 方法 和 假设 检验 类 方法 "。 
假设 检验 类 方法 是 衡量 样本 与 样本 ， 或 者 样本 与 总 
体 之 间 差 异性 的 一 种 方法 ， 事 先 通过 对 训练 和 测试 
数据 的 分 布 进行 假设 ， 然 后 利用 检验 统计 量 对 数据 
分 布 进行 一 致 性 检验 。 度 量 函 数 的 方法 因 其 简单 直 
观 ， 被 多 数 文献 采用 。 度 量 距 离 和 常见 的 有 Hellinger 
WB BS. 42 28 22 A A AA MY AR UB BS (Kullback- 
Leibler, KL) 等 ”， 如 公式 (1) HSE BE 
函数 计算 两 个 分 布 间 的 距离 

DPG) OOD = [ £45 40 (1) 

FE, P GO) MO GO. ZHIIDS PU Ac Z2 
uer PRB, P(x) = (Vx 1) 时 ， 该 度量 函数 


度量 的 是 Hellinger 距 离 ; “4p (x)= 51x - 1| 时 ,该 
度量 函数 度量 的 是 全 变 差距 离 ; 当 f (x)=xlogx 
时 ， 该 度量 函数 度量 的 是 KL 距离 。 

当 训练 数据 和 测试 数据 存在 误差 时 ， 可 能 导致 


算法 性 能 下 降 的 问题 ， 因 此 需要 对 训练 数据 和 测试 
数据 进行 校正 。 目 前 常用 样本 自 适应 分 布 差异 校正 
和 特征 自 适 应 分 布 差异 校正 两 种 方法 ， 前 者 采用 相 
关机 带 学 习 算法 对 模型 测试 效果 较 差 的 数据 进行 训 
练 ， 还 有 专家 利用 测试 集 和 训练 集中 较为 重要 的 数 
据 对 损失 进行 加 权 对 数据 分 布 进行 校正 ”。 后 者 
经 常 将 测试 集 和 训练 集中 的 数据 特征 进行 转换 ， 但 
保留 数据 原 有 的 特征 结构 ， 利 用 新 特征 来 代替 旧 特 
征 ， 形 成 对 应 关系 ”。 


5.2 数据 集 规模 评价 


数据 集 规模 对 于 模型 的 训练 有 着 重要 作用 ， 模 
型 的 准确 性 和 泛 化 能 力 与 数据 集 的 规模 有 着 高 度 的 
相关 性 。 公 式 (2) 直观 地 表现 了 几 个 因素 之 间 的 
RA, 

loss = (bias)? + variance + noise (2) 

H, loss 表示 损失 函数 ; bias don b 03 B5 4 
差 ， 是 真实 标签 与 预测 标签 之 间 的 偏离 程度 ， 刻 画 
了 模型 的 拟 合 能 力 ; variance 为 模型 的 方差 .刻画 
了 模型 的 稳定 性 ; xzoise 是 模型 的 噪声 ， 表 示 当 前 
模型 所 能 达到 的 期 望 误差 下 限 。 

当 数 据 量 一 定时 ， 模 型 必须 在 方差 和 偏 置 之 间 
进行 权衡 ， 根 据 经 验 法 则 ， 数 据 集 的 容量 应 当 是 提 
取 特 征 数据 的 十 倍 。 要 使 模型 的 泛 化 能 力 增 强 ， 其 
预测 精度 就 会 下 降 ， 反 之 提升 模型 的 精度 ， 其 泛 化 
能 力 就 会 下 降 。 在 保证 标注 噪声 非常 小 的 前 提 下 ， 
解决 这 一 问题 的 最 好 方法 就 是 提升 数据 集 规模 。 

Sun 等 ”选择 了 分 别 包 含 128 万 张 图 像 、1400 
万 张 图 像 和 3 亿 张 图 像 的 不 同 数据 集 探 究 计算 机 视 
觉 模型 的 容量 和 数据 集 规 模 之 间 的 关系 ， 实 验 结 
表明 ， 增 加 数据 规模 的 同时 ， 扩 大 模型 的 容量 ， 模 
型 的 准确 性 会 得 到 不 断 提 升 ， 模 型 的 性 能 表现 随 着 
数据 规模 的 增 大 呈 对 数 关系 提升 。 

当 数 据 量 一 定时 ， 对 于 深度 学 习 模 型 而 言 ， 选 
择 与 模型 的 深度 相 匹 配 的 数据 集 规模 很 重要 。 当 前 
根据 比较 著名 的 VC 维 (Vapnik-Chevronenkis Di- 
mension) 来 评估 模型 需要 的 训练 数据 规模 UU, VI 
练 数据 的 规模 与 VC 维 之 间 存 在 一 个 特定 的 函数 关 
AR, MAX (3) 所 示 。 
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VC + In Cz) 


N= F( (3) 


epsilon 

其 中 ，N 为 与 模型 匹配 的 数据 集 规模 ; AH K 
TF (x) 对 模型 进行 计算 可 以 得 到 与 之 匹配 的 数 
据 集 规模 ;VC 维 表示 模型 的 复杂 程度 ， 模 型 复杂 
度 越 高 ，VC 维 也 越 大 ; 4 是 模型 的 错误 率 ; epslion 
是 模型 的 误差 率 。 可 以 看 到 ， 利 用 VC 维 对 数据 集 
规模 进行 评价 的 过 程 中 ， 数 据 集 规模 与 模型 的 复杂 
程度 相关 。 


5.3 图 像 标 注 质 量 评价 


图 像 标注 质量 的 好 坏 与 特征 提取 是 否 全 面相 
关 。 农 业 病 虫害 图 像 识别 算 法 是 根据 图 像 中 的 像素 
点 进行 训练 的 ， 因 此 标注 者 能 否 准 确 地 判定 像素 点 
关系 到 整 张 图 像 标 注 的 质量 优 劣 2 ， 标 注 的 像素 
越 接近 于 物体 的 真实 边缘 ， 标 注 的 难度 越 大 ， 标 注 
的 质量 相应 越 高 ， 反 之 标注 质量 越 差 。 想 要 保证 标 
注 的 准确 性 达到 100%， 则 标注 的 范围 应 当 与 将 要 
识别 的 真实 物体 边缘 相差 不 超过 1 个 像素 。Gupta 
等 ' 引 定义 了 像素 精度 误差 (Pixel-wise Accuracy) € 
来 计算 像素 级 标注 质量 ， 如 公式 (4) 所 示 。 


t= H > g 2,214 Oy) -G(x,y)| (4) 


其 中 ，M (x, y) 为 标注 后 的 区 域 像素 ; G 
(x, y) 为 图 像 中 真实 的 目标 区 域 对 应 的 像素 ; W 
和 五 分 别 为 图 像 的 宽度 和 高 度 ， 通 过 公式 (4) 计 


其 中 ，y 表 示 标 注 者 对 样本 图 像 的 预测 标签 ， 
例如 在 数据 样本 中 有 待 标 注 的 图 像 有 m 个 ， 每 一 个 
图 像 都 对 应 着 一 个 二 元 分 类 ， 将 这 些 图 像样 本 通过 
众 包 分 配给 MM 个 标注 者 进行 标注 ， 则 每 个 标注 者 j 
都 会 对 图 像 i 作 出 预测 ， 得 到 六 预测 值 ， 最 终 得 到 
该 图 像 的 所 有 标签 为 ly), vi, oos vit, SIR 
据 这 些 预 测 值 选择 超过 一 半 以 上 的 标注 者 认为 是 正 
确 的 标签 作为 最 终 标签 ， 但 是 该 算法 没有 考虑 到 单 
独 标注 者 的 可 靠 性 。 

事实 上 ， 大 多 数 人 工作 出 的 选择 不 一 定 是 正确 
的 ， 基 于 此 ，Raykar 等“ 提出 了 一 种 使 用 最 大 期 
望 值 的 EM 算法 ， 该 算法 提出 在 利用 标注 者 标注 错 
误 的 数据 构建 错误 率 混淆 矩阵 ， 与 实际 观测 的 结 
进行 比较 ， 当 比较 后 的 差异 较 小 时 ， 就 说 明 该 标注 
的 质量 越 高 。 任 何 一 个 标注 者 对 目标 对 象 的 标注 可 
以 看 作 是 一 个 二 分 类 问题 ， 即 标注 正确 与 标注 错 
误 。 在 二 分 类 问题 中 常用 精准 率 (Precision), A 
回 率 (Recall) 和 五 分 数 这 三 种 指标 来 构建 混 清算 
Me, WS 所 示 。TP 为 真实 的 正 样 本 被 预测 为 
正 样 本 数量 ，FN 为 真实 正 样本 被 预测 为 负 样 本 数 
量 ，FP 为 真实 的 负 样 本 被 预测 正 负 样本 数量 ，TN 
为 真实 的 负 样 本 被 预测 为 负 样 本 数量 。 

表 5 二 分 类 混淆 和 矩阵 


Table 5 Binary confusion matrix 


预测 值 /实际 值 实际 正 样本 实际 负 样 本 
预测 正 样 本 TP FP 
预测 负 样 本 FN TN 


算出 M 和 G 的 像素 精度 误差 e。 当 e 越 接近 于 1， 表 
明 标注 像素 和 图 像 目 标 实际 像素 相差 越 大 ， 标 注 质 
量 较 差 ; 当 s 越 接近 于 0， 表 明 标 注 质量 越 好 。 

标签 的 正确 性 也 是 图 像 标 注 的 质量 好 坏 的 重要 
方面 ， 常 用 的 评价 指标 主要 有 多 数 投票 算法 
(Majority Voting，MV) 、 期 望 最 大 值 算法 (Expec- 
tation Maximization, EM) LARRY BIE, MV 算法 
的 主要 策略 是 选择 大 多 数 标注 者 都 认为 正确 的 结 
果 中， 如 公式 (5) 所 示 。 


1 M > 1 

l, TA 

De 1 M P» 1 
y= 4 random, wee Y= a (5) 

0, afl oe 


精准 率 定义 为 在 所 有 预测 结果 的 正 样 本 中 ， 真 
样本 数量 所 占 的 比重 ， 如 公式 (6) Bron. 


UNE TP 
Precision — WENT (6) 


精确 率 只 能 反应 当 预 测 结果 为 正 样本 时 的 可 靠 
程度 。 但 其 存在 的 问题 是 。 当 在 结果 中 仅仅 有 一 个 
正 样本 被 预测 为 正 样本 时 ， 即 只 有 一 个 标注 者 将 正 
确 的 目标 对 象 标 注 为 正确 的 类 别 ， 该 模型 的 精确 
率 为 100%。 

召回 率 定义 为 在 所 有 的 预测 结果 中 预测 正确 的 
正 样本 数量 与 所 有 实际 为 正 样 本 的 数量 比例 ， 如 公 
X (7) 所 示 。 

P 


T 
Recall = TP + FN (7) 
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当 结 果 中 所 有 的 样本 全 部 被 预测 为 正 样本 时 ， 
即 标注 者 将 所 有 的 目标 对 象 都 标注 为 同一 个 类 别 
时 ， 召 回 率 为 100%， 因 为 召回 率 仅仅 关注 正 样本 
的 情况 。 

下 分 数 调和 了 召回 率 和 精准 率 之 间 的 缺点 ， 综 
合 了 两 者 的 结果 ， 如 公式 (8) Br. 
_ 2 X Precision X Recall (8) 

Precision + Recall 

下 分数 表 示 预 测 的 结果 中 真实 的 正 样本 所 占 的 
比重 和 其 是 否 可 靠 。 当 召回 率 和 精准 率 都 比较 高 
时 ,fh 分数 的 结果 才 会 高 ， 当 结果 越 高 时 ， 表 明 标 
注 正确 性 越 高 。 

Raykar 等 和 于 洪 等 ' ZEA T MV 和 EM 算 
法 特点 ， 提 出 了 RY 算法 ,该 算法 利用 公式 (2) 提 
出 了 用 于 表示 标注 者 本 身 特征 的 敏感 性 (specifici- 
ty) 和 特异 性 (sensitivity) 概念 中 ， 通 过 对 标注 
者 的 敏感 性 和 特异 性 进行 分 析 ， 排 除了 不 合格 标注 
者 标注 的 图 像 ， 从 而 提高 了 标注 质量 。 


6 数据 集 构 建 建议 


本 文系 统 地 综述 了 构建 农业 病虫害 数据 集 的 现 
状 及 存在 问题 的 原因 ， 目 前 病虫害 识别 领域 中 缺乏 
大 规模 、 高 质量 的 数据 集 。 本 文 从 农业 病虫害 几 像 
数据 本 身 存在 的 问题 人手， 总 结 了 构建 农业 病虫害 
数据 集 主要 面临 的 挑战 ， 从 图 像 数 据 集 的 采集 和 标 
注 两 个 关键 环节 分 析 了 形成 这 些 挑 战 的 原因 ， 总 结 
了 相关 数据 集 质量 的 评价 方法 ， 提 出 以 下 3 点 数据 
集 构建 建议 。 

(1) 结合 实际 使 用 场景 构建 农业 病虫害 数据 
集 。 在 构建 数据 集 时 ， 应 当 充分 考虑 算法 的 使 用 场 
景 。 在 实际 生产 环境 中 。 使 用 者 往往 给 出 的 将 要 识 
别 的 岁 像 更 多 来 自 于 田间 地 头 随手 拍摄 的 农业 病 虫 
害 照片 ， 由 于 病虫害 的 个 体 小 ， 拍 摄 出 图 像 中 的 目 
标 往 往 更 小 ， 显 著 性 更 低 。 在 拍摄 图 像 时 ， 应 当 将 
目标 显著 性 图 像 与 目标 非 显 著 性 图 像 置 于 同等 地 
位 中， 同时 增加 模糊 无 语义 的 图 像 和 不 同 角 度 、 
不 同 光线 下 的 图 像 。 合 理 划 分 数据 集中 的 类 别 ， 多 
视角 、 多 环境 下 拍摄 图 像 ， 可 从 算法 提取 特征 进行 
分 类 的 角度 ， 满 足 较 大 的 类 间距 离 和 较 小 的 类 间距 
离 ， 保 证 各 类 别 中 的 数据 和 特征 分 布 尽 可 能 保证 均 
勺 。 数 据 集 图 像 数据 中 心中 的 目标 对 象 不 应 存在 选 


F, 


择 偏 差 ， 应当 包 含 多 种 目标 对 象 位 置 ， 多 种 简单 、 
复杂 的 背景 ”， 中 小 型 目标 对 象 的 图 像样 本 尽 可 
能 多 ， 为 农业 病虫害 识别 提供 高 质量 的 数据 支持 。 

(2) 平衡 数据 集 与 算法 间 的 关系 。 数 据 集 的 规 
模 、 单 张 图 像 标 注 的 准确 性 以 及 数据 采集 方法 都 会 
影响 到 模型 的 性 能 。 应 当 结 合 使 用 场景 ， 探 究 农 业 
病虫害 图 像 数据 的 规模 与 模型 性 能 之 间 的 关系 ， 挖 
掘 数据 规模 与 算法 性 能 的 平衡 点 ， 为 构建 病虫害 数 
据 集 提 供 规模 依据 。 规 范 图 像 标 注 的 方法 ， 在 这 
挡 、 模 糊 、 密 集 等 场景 下 ， 探 究 不 同 目标 对 象 标注 
方法 与 模型 性 能 之 间 的 关系 ， 尽 可 能 减少 标注 过 程 
TA ARS, He tes BEY A PEE 

(3) 增强 数据 集 的 使 用 价值 。 农 业 病虫害 数据 
集 建设 是 一 项 长 期 坚持 的 工作 。 为 了 扩大 数据 集 的 
价值 、 丰 富 其 使 用 场景 ， 大 规模 基础 病虫害 数据 集 
不 应 当 只 有 图 像 数 据 ， 应 该 还 包含 文字 、 视 频 、 图 
像 周围 环境 信息 等 多 模 态 数据 。 为 了 适应 较 快 的 业 
务 创新 速度 ， 应 构建 与 整合 多 模 态 农业 病虫害 数据 
资源 ， 建 设 农业 病虫害 大 数据 中 台 ， 将 业务 逻辑 中 
的 数据 存储 和 计算 力 抽 离 ， 由 数据 中 台 对 海量 数据 
进行 计算 、 存 储 、 加 工 和 统一 标准 ， 为 各 业务 系统 
和 具体 的 落地 项 目 提供 高 效 服务 ， 简 化 业务 系统 的 
复杂 性 ， 让 研究 者 更 专注 于 应 用 模型 研发 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 

[Significance] The scientific dataset of agricultural pests and diseases is the foundation for monitoring and warning of agricultural 
pests and diseases. It is of great significance for the development of agricultural pest control, and is an important component of devel- 
oping smart agriculture. The quality of the dataset affecting the effectiveness of image recognition algorithms, with the discovery of 
the importance of deep learning technology in intelligent monitoring of agricultural pests and diseases. The construction of high-quali- 
ty agricultural pest and disease datasets is gradually attracting attention from scholars in this field. In the task of image recognition, on 
one hand, the recognition effect depends on the improvement strategy of the algorithm, and on the other hand, it depends on the quali- 
ty of the dataset. The same recognition algorithm learns different features in different quality datasets, so its recognition performance 
also varies. In order to propose a dataset evaluation index to measure the quality of agricultural pest and disease datasets, this article 
analyzes the existing datasets and takes the challenges faced in constructing agricultural pest and disease image datasets as the starting 


point to review the construction of agricultural pest and disease datasets. 
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[Progress] Firstly, disease and pest datasets are divided into two categories: private datasets and public datasets. Private datasets have 
the characteristics of high annotation quality, high image quality, and a large number of inter class samples that are not publicly avail- 
able. Public datasets have the characteristics of multiple types, low image quality, and poor annotation quality. Secondly, the problems 
faced in the construction process of datasets are summarized, including imbalanced categories at the dataset level, difficulty in feature 
extraction at the dataset sample level, and difficulty in measuring the dataset size at the usage level. These include imbalanced inter 
class and intra class samples, selection bias, multi-scale targets, dense targets, uneven data distribution, uneven image quality, insuffi- 
cient dataset size, and dataset availability. The main reasons for the problem are analyzed by two key aspects of image acquisition and 
annotation methods in dataset construction, and the improvement strategies and suggestions for the algorithm to address the above is- 
sues are summarized. The collection devices of the dataset can be divided into handheld devices, drone platforms, and fixed collection 
devices. The collection method of handheld devices is flexible and convenient, but it is inefficient and requires high photography 
skills. The drone platform acquisition method is suitable for data collection in contiguous areas, but the detailed features captured are 
not clear enough. The fixed device acquisition method has higher efficiency, but the shooting scene is often relatively fixed. The anno- 
tation of image data is divided into rectangular annotation and polygonal annotation. In image recognition and detection, rectangular 
annotation is generally used more frequently. It is difficult to label images that are difficult to separate the target and background. Im- 
proper annotation can lead to the introduction of more noise or incomplete algorithm feature extraction. In response to the problems in 
the above three aspects, the evaluation methods are summarized for data distribution consistency, dataset size, and image annotation 
quality at the end of the article. 

[Conclusions and Prospects] The future research and development suggestions for constructing high-quality agricultural pest and 
disease image datasets based are proposed on the actual needs of agricultural pest and disease image recognition:(1) Construct agricul- 
tural pest and disease datasets combined with practical usage scenarios. In order to enable the algorithm to extract richer target fea- 
tures, image data can be collected from multiple perspectives and environments to construct a dataset. According to actual needs, data 
categories can be scientifically and reasonably divided from the perspective of algorithm feature extraction, avoiding unreasonable in- 
ter class and intra class distances, and thus constructing a dataset that meets task requirements for classification and balanced feature 
distribution. (2) Balancing the relationship between datasets and algorithms. When improving algorithms, consider the more sufficient 
distribution of categories and features in the dataset, as well as the size of the dataset that matches the model, to improve algorithm ac- 
curacy, robustness, and practicality. It ensures that comparative experiments are conducted on algorithm improvement under the same 
evaluation standard dataset, and improved the pest and disease image recognition algorithm. Research the correlation between the 
scale of agricultural pest and disease image data and algorithm performance, study the relationship between data annotation methods 
and algorithms that are difficult to annotate pest and disease images, integrate recognition algorithms for fuzzy, dense, occluded tar- 
gets, and propose evaluation indicators for agricultural pest and disease datasets. (3) Enhancing the use value of datasets. Datasets can 
not only be used for research on image recognition, but also for research on other business needs. The identification, collection, and 
annotation of target images is a challenging task in the construction process of pest and disease datasets. In the process of collecting 
image data, in addition to collecting images, attention can be paid to the collection of surrounding environmental information and host 
information. This method is used to construct a multimodal agricultural pest and disease dataset, fully leveraging the value of the data- 
set. In order to focus researchers on business innovation research, it is necessary to innovate the organizational form of data collection, 
develop a big data platform for agricultural diseases and pests, explore the correlation between multimodal data, improve the accessi- 


bility and convenience of data, and provide efficient services for application implementation and business innovation. 
Key words: agricultural pests; data set; deep learning; monitoring and warning; data acquisition; data annotations; data set evaluation 
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